맨위로가기

회귀 분석

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

회귀 분석은 변수 간의 관계를 모델링하고 예측하는 데 사용되는 통계적 분석 기법이다. 19세기 프랜시스 골턴의 연구에서 시작되어 최소 제곱법 등 다양한 방법으로 발전해왔다. 선형 회귀 분석은 종속 변수와 독립 변수 간의 선형 관계를 모델링하며, 비선형 회귀 분석은 모형 함수가 매개변수에 대해 선형이 아닌 경우에 사용된다. 회귀 분석은 예측, 가설 검정, 모형 적합도 평가 등에 활용되며, 독립 변수 간의 상관 관계, 제한 종속 변수, 모형 선택 등에 유의하여 분석해야 한다. 다양한 통계 소프트웨어를 통해 회귀 분석을 수행할 수 있으며, 분산 분석 등 다른 통계 기법과 함께 실용적인 연구 방법론으로 사용된다.

더 읽어볼만한 페이지

  • 통계학에 관한 - 비지도 학습
    비지도 학습은 레이블이 없는 데이터를 통해 패턴을 발견하고 데이터 구조를 파악하는 것을 목표로 하며, 주성분 분석, 군집 분석, 차원 축소 등의 방법을 사용한다.
  • 통계학에 관한 - 지도 학습
    지도 학습은 레이블된 데이터를 사용하여 입력 데이터와 출력 레이블 간의 관계를 학습하는 기계 학습 분야로, 예측 모델 생성, 알고리즘 선택, 모델 최적화, 정확도 평가 단계를 거치며, 회귀 및 분류 문제에 적용되고 다양한 확장 기법과 성능 평가 방법을 활용한다.
  • 보험계리학 - 예측 분석
    예측 분석은 통계학, 기계 학습 등의 분석 기법을 활용하여 과거 및 현재 데이터를 토대로 미래의 사건이나 결과를 예측하는 방법론으로, 다양한 분야에서 의사 결정 지원 및 위험 관리 등에 활용되지만, 인간 행동의 복잡성으로 인한 예측 불가능성에 대한 비판도 존재한다.
  • 보험계리학 - 사망률
    사망률은 특정 기간 동안의 사망자 수를 인구 집단 크기로 나눈 비율로, 인구 집단의 건강 상태와 사회 경제적 수준을 나타내는 지표이며, 역학 연구, 세계 보건 동향 분석 등에 활용된다.
  • 회귀분석 - 로지스틱 회귀
    로지스틱 회귀는 범주형 종속 변수를 다루는 회귀 분석 기법으로, 특히 이항 종속 변수에 널리 사용되며, 오즈에 로짓 변환을 적용하여 결과값이 0과 1 사이의 값을 가지도록 하는 일반화 선형 모형의 특수한 경우이다.
  • 회귀분석 - 과적합
    과적합은 통계 모델이나 기계 학습 알고리즘이 훈련 데이터에 과도하게 적합되어 새로운 데이터에 대한 예측 성능이 저하되는 현상이다.
회귀 분석
개요
정의변수들 사이의 관계를 추정하는 통계적 과정의 집합
모델
모델선형 회귀

다항 회귀
일반 선형 모델
일반화 선형 모델

로지스틱 회귀









변량 효과
혼합 모델
비선형 회귀







국소

추정
추정최소 제곱법

비선형






릿지 회귀




배경
배경

오차 및 잔차

스튜던트화 잔차
가우스-마르코프 정리

2. 역사

회귀(regress|리그레스영어)의 원래 의미는 옛날 상태로 돌아가는 것을 의미한다. 영국의 유전학자 프랜시스 골턴은 부모의 키와 아이들의 키 사이의 연관 관계를 연구하면서 부모와 자녀의 키 사이에는 선형적인 관계가 있고 키가 커지거나 작아지는 것보다는 전체 키 평균으로 돌아가려는 경향이 있다는 가설을 세웠으며 이를 분석하는 방법을 "회귀분석"이라고 하였다. 이러한 경험적 연구 이후, 칼 피어슨은 아버지와 아들의 키를 조사한 결과를 바탕으로 함수 관계를 도출하여 회귀분석 이론을 수학적으로 정립하였다.

최초의 회귀 분석 방법은 최소 제곱법(method of least squares)으로, 1805년 르장드르가, 1809년 가우스가 발표하였다.[4][5] 르장드르와 가우스는 모두 천문 관측을 통해 태양 주위를 도는 천체(주로 혜성이지만, 나중에는 새로 발견된 소행성도 포함)의 궤도를 결정하는 문제에 이 방법을 적용하였다. 가우스는 1821년 최소 제곱법 이론에 대한 추가적인 발전(여기에는 가우스-마르코프 정리(Gauss–Markov theorem)의 한 버전도 포함됨)을 발표하였다.[6]

"회귀(regression)"라는 용어는 19세기에 골턴이 생물학적 현상을 설명하기 위해 만들었다. 이 현상은 키가 큰 조상의 자손들의 키가 정규 평균으로 회귀하는 경향(즉, 평균으로의 회귀(regression toward the mean) 현상)을 말한다.[7][8] 골턴에게 회귀는 이러한 생물학적 의미만을 가지고 있었지만,[9][10] 그의 연구는 나중에 율과 피어슨에 의해 더 일반적인 통계적 맥락으로 확장되었다.[11][12] 율과 피어슨의 연구에서는 반응 변수와 설명 변수의 결합 분포(joint distribution)가 가우스 분포를 따른다고 가정하였다. 이 가정은 1922년과 1925년 R.A. 피셔의 연구에서 약화되었다.[13][14][15] 피셔는 반응 변수의 조건부 분포(conditional distribution)가 가우스 분포를 따른다고 가정했지만, 결합 분포는 그럴 필요가 없다고 보았다. 이러한 점에서 피셔의 가정은 1821년 가우스의 공식화에 더 가깝다.

1950년대와 1960년대에는 경제학자들이 전기 기계식 책상용 계산기를 사용하여 회귀 분석을 계산하였다. 1970년 이전에는 한 번의 회귀 분석 결과를 받는 데 최대 24시간이 걸리기도 하였다.[16]

회귀 분석 방법은 계속해서 활발한 연구 분야이다. 최근 수십 년 동안 강건 회귀(robust regression), 시계열(time series) 및 성장 곡선과 같은 상관된 반응을 포함하는 회귀, 예측 변수(독립 변수) 또는 반응 변수가 곡선, 이미지, 그래프 또는 기타 복잡한 데이터 객체인 회귀, 다양한 유형의 결측 데이터를 수용하는 회귀, 비모수 회귀(nonparametric regression), 회귀를 위한 베이즈 방법, 예측 변수가 오차로 측정되는 회귀, 관측치보다 예측 변수가 많은 회귀, 그리고 회귀를 이용한 인과 추론(causal inference) 등에 대한 새로운 방법들이 개발되었다. 현대의 회귀 분석은 일반적으로 컴퓨터의 통계 및 스프레드시트(spreadsheet) 소프트웨어 패키지뿐만 아니라 휴대용 과학 및 그래프 계산기(graphing calculator)를 사용하여 수행된다.

3. 회귀 분석의 종류

회귀 분석은 다양한 종류로 나눌 수 있으며, 크게 선형 회귀와 비선형 회귀로 구분된다.


  • 선형 회귀: 일반화선형모델, 일반선형모델 등이 있다.
  • 선형 회귀: 종속 변수와 하나 이상의 독립 변수 간의 선형 관계를 모델링하는 방법이다.
  • 규제 항이 있는 선형 회귀:
  • 릿지 회귀
  • 라소 회귀
  • 엘라스틱넷
  • 비선형 회귀:
  • k-최근접 이웃 알고리즘
  • 회귀 트리
  • 랜덤 포레스트
  • 뉴럴 네트워크
  • 서포트 벡터 회귀
  • 투영 추적 회귀
  • Multivariate adaptive regression splines|다변량 적응 회귀 스플라인영어

3. 1. 선형 회귀 분석

선형 회귀는 종속 변수와 하나 이상의 독립 변수 간의 선형 관계를 모델링하는 회귀 분석 방법이다. 종속 변수와 독립 변수의 개수에 따라 다음과 같이 분류할 수 있다.

구분설명
단순 선형 회귀하나의 종속 변수와 하나의 독립 변수 간의 관계를 분석한다.
다중 선형 회귀하나의 종속 변수와 여러 독립 변수 간의 관계를 분석한다.



최초의 회귀 분석 방법은 최소 제곱법(method of least squares)으로, 1805년 르장드르가, 1809년 가우스가 발표하였다.[4][5] 르장드르와 가우스는 모두 천문 관측을 통해 태양 주위를 도는 천체(주로 혜성이지만, 나중에는 새로 발견된 소행성도 포함)의 궤도를 결정하는 문제에 이 방법을 적용하였다. 가우스는 1821년 최소 제곱법 이론에 대한 추가적인 발전을 발표하였는데, 여기에는 가우스-마르코프 정리(Gauss–Markov theorem)의 한 버전도 포함되었다.[6]

"회귀(regression)"라는 용어는 19세기에 골턴이 생물학적 현상을 설명하기 위해 만들었다. 골턴은 키가 큰 조상의 자손들의 키가 정규 평균으로 회귀하는 경향을 설명하기 위해 이 용어를 사용했다.[7][8]

thumb

선형 회귀에서, 모형은 종속 변수 y_i 가 ''모수''의 선형 결합이라는 것이다.


  • 단순 선형 회귀 모형:

:직선: y_i=\beta_0 +\beta_1 x_i +\varepsilon_i,\quad i=1,\dots,n.\!

( x_i : 독립 변수, \beta_0, \beta_1: 모수)

  • 다중 선형 회귀 모형:

:포물선: y_i=\beta_0 +\beta_1 x_i +\beta_2 x_i^2+\varepsilon_i,\ i=1,\dots,n.\!

(독립 변수 또는 독립 변수의 함수가 여러 개 존재. 모수에 대해서는 여전히 선형)

최소 제곱법은 잔차 제곱합(SSR)을 최소화하는 모수 추정값을 얻는 방법이다.

:SSR=\sum_{i=1}^n e_i^2

3. 1. 1. 선형 회귀 모형의 가정

최소제곱법을 비롯한 회귀 분석 방법은 데이터를 이용한 계산일 뿐이지만, 그 결과를 실제 세계의 관계로 해석하기 위해서는 몇 가지 통계적 가정이 필요하다. 이러한 가정에는 다음이 포함된다.[5]

  • 표본이 모집단 전체를 대표한다.
  • 독립 변수는 오차 없이 측정된다.
  • 모형으로부터의 편차는 공변량을 조건으로 할 때 기댓값이 0이다. 즉, E(e_i | X_i) = 0이다.
  • 잔차 e_i의 분산은 관측치에 걸쳐 일정하다(등분산성).
  • 잔차 e_i는 서로 상관되지 않는다. 수학적으로, 오차의 분산-공분산 행렬은 대각 행렬이다.


이러한 가정들이 충족될 때, 최소제곱법 추정량은 바람직한 특성을 가진다. 특히, 가우스-마르코프 가정에 따라, 매개변수 추정치는 선형 불편 추정량 중에서 불편, 일치, 효율적이다.[5]

하지만 현실에서는 이러한 가정이 완벽하게 충족되지 않는 경우가 많다. 따라서 연구자들은 이러한 가정이 정확하게 성립하지 않는 환경에서도 합리적인 결론을 도출하기 위한 다양한 기법을 개발했다. 예를 들어, 오차 포함 변수 모형을 모델링하여 독립 변수에 오차가 있는 경우를 처리하거나, 이분산성에 강건한 표준 오차를 사용하여 잔차의 분산이 독립 변수에 따라 달라지는 경우를 처리할 수 있다. 또한, 뉴이-웨스트 표준 오차 등의 기법을 통해 상관된 오차를 처리할 수 있다.[17][18]

3. 1. 2. 회귀 모형 적합도

회귀 모형의 적합도는 잔차 검정을 통해 확인한다. 잔차 검정은 정규성등분산성 가정을 만족하는지 검토하는 과정이다. 잔차의 정규성은 Shaprio-Wilk 검정 또는 Kolmogolov-Smirnov 검정을 통해 실시하며, 회귀분석에서 등분산성 검정 방법으로는 Breusch-Pagan test, Goldfeld-Quandt test, Cook-Weisberg test, White test가 있다.

회귀 모형이 구성된 후에는 모형의 적합도와 추정된 모수의 통계적 유의성을 확인하는 것이 중요하다. 일반적으로 사용되는 적합도 검정에는 결정계수, 잔차 패턴 분석 및 가설 검정이 포함된다. 통계적 유의성은 전체 적합도에 대한 F 검정을 수행한 다음 개별 모수에 대한 t 검정을 통해 확인할 수 있다.

이러한 진단 검정의 해석은 모형의 가정에 크게 의존한다. 잔차 검토를 통해 모형의 타당성을 무효화할 수 있지만, 모형의 가정이 위반된 경우 t 검정 또는 F 검정의 결과를 해석하기가 더 어려울 수 있다. 예를 들어, 오차항이 정규 분포를 따르지 않는 경우, 작은 표본에서는 추정된 모수가 정규 분포를 따르지 않아 추론이 복잡해진다. 그러나 비교적 큰 표본의 경우 중심 극한 정리를 적용하여 점근적 근사를 사용하여 가설 검정을 진행할 수 있다.

3. 2. 비선형 회귀 분석

모델 함수가 매개변수에 대해 선형이 아닌 경우, 제곱합은 반복적인 절차를 통해 최소화되어야 한다. 이는 선형 및 비선형 최소 제곱법의 차이점에 요약된 많은 복잡성을 야기한다.[5]

회귀 모델의 모수는 일반적으로 최소 제곱법을 사용하여 추정되지만, 다음과 같은 다른 방법들도 사용되어 왔다.

  • 베이즈 방법, 예: 베이즈 선형 회귀
  • 백분율 회귀: 백분율 오차를 줄이는 것이 더 적절하다고 판단되는 경우에 사용된다.[23]
  • 최소 절대 편차: 이상치가 존재할 때 더 강건하며, 분위수 회귀로 이어진다.
  • 비모수적 회귀: 많은 관측치가 필요하며 계산 집약적이다.
  • 시나리오 최적화: 구간 예측 모델로 이어진다.
  • 거리 측정 학습: 주어진 입력 공간에서 의미 있는 거리 측정을 찾는 과정을 통해 학습된다.[24]


종속 변수와 독립 변수 간의 관계가 비선형인 경우에 사용되는 비선형 회귀분석 방법은 다음과 같다.

'''비선형 회귀분석의 종류'''

종류
릿지 회귀
라소 회귀
엘라스틱넷
k-최근접 이웃 알고리즘
회귀 트리
랜덤 포레스트
뉴럴 네트워크
서포트 벡터 회귀
투영 추적 회귀


4. 회귀 분석의 활용

회귀 모델은 알려진 ''X'' 변수(독립 변수) 값을 통해 ''Y'' 변수(종속 변수) 값을 예측한다.[20] 데이터셋 범위 내에서의 예측은 보간으로, 범위를 벗어난 예측은 외삽으로 알려져 있다. 외삽은 회귀 가정에 크게 의존하며, 데이터 범위를 벗어날수록 모델이 실패할 가능성이 커진다.[21] 점 예측에는 불확실성을 나타내는 예측 구간이 함께 제공될 수 있는데, 이러한 구간은 독립 변수 값이 관찰된 데이터 범위를 벗어날수록 빠르게 확장되는 경향이 있다.



회귀 분석은 독립 변수와 종속 변수 간의 관계를 나타내는 식을 통계적 방법으로 추정한다.
종속 변수(목적 변수)는 설명하고자 하는 변수(주목하는 변수)를 가리킨다. 독립 변수(설명 변수)는 이를 설명하기 위해 사용되는 변수이다. 경제학의 예를 들면, 경제 전체의 소비(Y)를 국민소득(X)으로 설명하는 소비 함수가 Y=aX+b라는 모델로 표현된다고 할 때, 소비 Y가 종속 변수, 국민소득 X가 독립 변수에 해당한다. 그리고 a, b와 같은 계수(파라미터)를 추정한다.

가장 간단한 방법은 위 식과 같은 일반화 선형 모델을 사용하는 선형 회귀이지만, 그 외의 비선형 모델을 사용하는 비선형 회귀도 있다.

5. 회귀 분석과 다른 통계 기법과의 관계

회귀 분석은 실험 집단 간에 어떠한 차이가 존재하는지 밝히는 데 적용하는 검정 기법인 분산 분석(ANOVA)과 함께 매우 실용적인 연구방법론의 주요한 도구이다.[1]

6. 회귀 분석 시 유의점

회귀 분석은 데이터를 기반으로 변수 간의 관계를 모델링하는 강력한 도구이지만, 그 결과를 해석하고 활용할 때는 몇 가지 주의해야 할 점들이 있다.
회귀 분석의 가정:

회귀 분석은 단순히 데이터를 이용한 계산일 뿐이지만, 그 결과를 실제 세계의 관계를 측정하는 의미 있는 통계적 수치로 해석하기 위해서는 몇 가지 통계적 가정이 필요하다. 이러한 가정에는 다음이 포함된다.[5]


  • 표본 대표성: 표본이 모집단 전체를 대표해야 한다.
  • 독립 변수 측정: 독립 변수는 오차 없이 측정되어야 한다.
  • 오차 항의 기댓값: 모형으로부터의 편차(오차 항)는 독립 변수를 조건으로 할 때 기댓값이 0이어야 한다. 즉, E(e_i | X_i) = 0 이다.
  • 등분산성: 잔차의 분산은 모든 관측치에서 일정해야 한다.
  • 잔차의 독립성: 잔차는 서로 상관되지 않아야 한다. 즉, 오차의 분산-공분산 행렬은 대각 행렬이어야 한다.


이러한 가정들이 충족될 때, 최소 제곱 추정량은 불편성, 일치성, 효율성 등의 바람직한 특성을 갖는다. (가우스-마르코프 정리) 그러나 실제로는 이러한 가정이 완벽하게 충족되지 않는 경우가 많으므로, 실무자들은 이러한 가정을 완화하거나 다른 방법을 사용하여 분석을 수행한다. 예를 들어, 독립 변수에 오차가 있는 경우 오차 포함 변수 모형을 사용하거나, 이분산성이 의심되는 경우 이분산성에 강인한 표준오차를 사용할 수 있다.[17][18]
모형의 적합도 및 유의성 검정:

회귀 모형을 구성한 후에는 모형의 적합도와 추정된 모수의 통계적 유의성을 확인해야 한다. 일반적으로 결정계수(R^2), 잔차 패턴 분석, 가설 검정(F-검정, t-검정) 등을 사용한다.

하지만 이러한 진단 검정의 해석은 모형의 가정에 크게 의존한다. 잔차 검토를 통해 모형의 타당성을 검토할 수 있지만, 모형의 가정이 위반된 경우 t-검정이나 F-검정 결과를 해석하기 어려울 수 있다. 예를 들어, 오차 항이 정규 분포를 따르지 않으면 작은 표본에서 추정된 모수가 정규 분포를 따르지 않아 추론이 복잡해진다. 그러나 비교적 큰 표본의 경우 중심 극한 정리를 적용하여 점근적 근사를 통해 가설 검정을 수행할 수 있다.
데이터의 충분성:

회귀 모형을 추정하기 위해서는 충분한 데이터가 필요하다. 일반적으로 k개의 모수를 가진 최소제곱법 모형을 추정하려면 N \geq k개의 독립적인 데이터가 필요하다. N > k인 경우, 일반적으로 데이터에 완벽하게 맞는 모수 집합은 존재하지 않는다. N-k는 모형의 자유도를 나타낸다. 또한, 독립 변수들은 선형적으로 독립이어야 한다.
예측:

회귀 모델은 알려진 독립 변수 값을 기반으로 종속 변수 값을 예측하는 데 사용될 수 있다. 데이터셋 범위 내에서의 예측은 보간이라고 하며, 데이터 범위 밖의 예측은 외삽이라고 한다. 외삽은 회귀 가정에 크게 의존하므로 주의해야 한다. 외삽이 데이터 범위를 벗어날수록 모델이 실패할 가능성이 커진다.[21]

6. 1. 독립 변수 간의 상관 관계

일반화 선형 모델에서 독립 변수들 간에 상관 관계가 높으면 다중 공선성 문제가 발생하여 회귀 계수가 비정상적인 값을 가질 수 있으므로 주의해야 한다.[17]

예를 들어, 초등학교 시험 점수를 분석하는 다중 회귀 분석에서 과학 점수를 종속 변수로, 수학과 국어 점수를 독립 변수로 사용하면, 수학 점수가 높을수록 과학 점수가 높아지고 국어 점수가 높을수록 과학 점수가 낮아지는 것처럼 해석될 수 있는 계수가 나타날 수 있다. 이는 수학 점수와 국어 점수 사이에 강한 상관 관계가 있기 때문이다. 이 경우, 수학과 국어 점수의 평균과 차이처럼 두 변수를 가공하면 상관 관계를 낮추고 해석을 용이하게 할 수 있다. 예를 들어, 수학과 국어 점수의 차이는 수학 점수가 높은 학생일수록 과학 점수가 높은 경향을 나타내는 것으로 해석할 수 있다.

이는 선형 모델의 문제이므로, 선형 모델이 적합하지 않은 경우에는 비선형 모델을 사용할 수 있다. 또한, 공분산 구조 분석과 같이 다중 회귀 분석보다 복잡한 관계를 설명할 수 있는 모델도 존재한다.

6. 2. 제한 종속 변수

제한 종속 변수는 범주형 변수이거나 특정 범위 내에만 있는 변수인 반응 변수로, 종종 계량 경제학에서 나타난다.[17][18]

반응 변수는 비연속적일 수 있으며(실수선의 일부 부분에만 존재하도록 "제한됨"), 0 또는 1인 이진 변수의 경우, 최소 제곱 선형 회귀를 사용하여 분석을 진행하면 이 모델을 선형 확률 모형이라고 한다. 이진 종속 변수에 대한 비선형 모형에는 프로빗과 로짓 모형이 있다. 다변량 프로빗 모형은 여러 이진 종속 변수와 일부 독립 변수 간의 공동 관계를 추정하는 표준 방법이다. 두 개 이상의 값을 갖는 범주형 변수의 경우 다항 로짓이 있다. 두 개 이상의 값을 갖는 순서형 변수의 경우 순서 로짓 및 순서 프로빗 모형이 있다. 종속 변수가 때때로만 관찰되는 경우 절단 회귀 모형을 사용할 수 있으며, 표본이 관심 대상 모집단에서 무작위로 선택되지 않은 경우 헥먼 수정 유형 모형을 사용할 수 있다. 이러한 절차의 대안으로는 범주형 변수 간의 다중 상관(polychoric correlation)(또는 다중 계열 상관)을 기반으로 하는 선형 회귀가 있다. 이러한 절차는 모집단에서 변수의 분포에 대해 가정하는 내용이 다르다. 변수가 낮은 값을 갖는 양수이고 사건 발생의 반복을 나타내는 경우, 푸아송 회귀 또는 음이항 모형과 같은 계수 모형을 사용할 수 있다.[17][18]

6. 3. 모형 선택

회귀 분석을 수행하려면 함수 *f*의 형태를 지정해야 한다. 때때로 이 함수의 형태는 데이터에 의존하지 않는 Y_iX_i 사이의 관계에 대한 지식을 기반으로 한다. 이러한 지식을 사용할 수 없는 경우, *f*에 대한 유연하거나 편리한 형태를 선택한다. 예를 들어, 단순 일변량 회귀는 f(X_i, \beta) = \beta_0 + \beta_1 X_i를 제안할 수 있는데, 이는 연구자가 Y_i = \beta_0 + \beta_1 X_i + e_i가 데이터를 생성하는 통계적 과정에 대한 합리적인 근사치라고 믿는다는 것을 의미한다.[5]

회귀 모형을 추정하기 위해서는 충분한 데이터가 있어야 한다. k개의 고유한 모수를 가진 최소제곱법 모형을 추정하려면 N \geq k개의 고유한 데이터 지점이 있어야 한다. N > k인 경우 일반적으로 데이터에 완벽하게 맞는 모수 집합이 존재하지 않는다. 수량 N-k는 회귀 분석에서 자주 나타나며 모형의 자유도라고 한다. 또한 최소제곱법 모형을 추정하려면 독립 변수 (X_{1i}, X_{2i}, ..., X_{ki})가 선형 독립해야 한다. 즉, 나머지 독립 변수를 더하고 곱하여 독립 변수를 재구성할 수 없어야 한다.

회귀 모델은 알려진 ''X'' 변수 값을 주어졌을 때 ''Y'' 변수 값을 '''예측'''한다. 데이터셋의 범위 내에서의 예측은 ''보간''으로, 이 데이터 범위 바깥의 예측은 ''외삽''으로 알려져 있다. 외삽을 수행하는 것은 회귀 가정에 크게 의존한다. 외삽이 데이터 범위 밖으로 갈수록, 가정과 표본 데이터 또는 실제 값 사이의 차이로 인해 모델이 실패할 여지가 더 커진다.[21]

회귀에 적절한 함수 형태를 선택하는 단계는 외삽을 고려할 때 매우 중요하다. 최소한, 적합된 모형에서 발생하는 외삽이 "현실적"이거나 알려진 것과 일치하는지 확인해야 한다.

7. 회귀 분석 소프트웨어

R, Stata, gretl 등 다양한 통계 소프트웨어가 회귀 분석을 지원한다.[16] NAG, IMSL과 같은 수치 계산 라이브러리도 회귀 분석 기능을 제공한다. 주요 통계 소프트웨어 패키지는 모두 최소 제곱법 회귀 분석과 추론을 수행한다. 단순 선형 회귀와 최소 제곱법을 사용한 다중 회귀는 일부 스프레드시트 응용 프로그램과 일부 계산기에서 수행할 수 있다. 많은 통계 소프트웨어 패키지가 다양한 유형의 비모수 및 강건한 회귀를 수행할 수 있지만, 이러한 방법은 표준화되지 않았다. 서로 다른 소프트웨어 패키지는 서로 다른 방법을 구현하며, 특정 이름의 방법은 패키지마다 다르게 구현될 수 있다. 설문 조사 분석 및 신경 영상과 같은 분야에서 사용하기 위해 특수한 회귀 소프트웨어가 개발되었다.

R은 통계 분석 언어로, 회귀 분석을 비롯한 많은 통계 함수를 표준으로 탑재한 프리웨어이다. '모델 식'으로 모델 기술 및 적합이 용이하다. 다른 애플리케이션의 파일 가져오기 및 ODBC 연결을 지원하며, FDA에서 인증받았다. CRAN이라는 시스템으로 전 세계의 방대한 소프트웨어를 무상으로 이용 가능하다. 시각화 기능이 뛰어나며, 한국어도 지원하고 멀티플랫폼을 지원한다.

참조

[1] 웹사이트 Necessary Condition Analysis http://www.erim.eur.[...]
[2] 서적 Statistical Models: Theory and Practice https://books.google[...] Cambridge University Press 2009-04-27
[3] 간행물 Criticism and Influence Analysis in Regression https://www.jstor.or[...]
[4] 서적 Nouvelles méthodes pour la détermination des orbites des comètes https://books.google[...] Firmin Didot
[5] 서적 Mostly Harmless Econometrics: An Empiricist's Companion Princeton University Press
[6] 서적 Theoria combinationis observationum erroribus minimis obnoxiae https://books.google[...]
[7] 서적 Second-Semester Applied Statistics Kendall/Hunt Publishing Company
[8] 학술지 Kinship and Correlation (reprinted 1989)
[9] 간행물 Typical laws of heredity
[10] 간행물 Presidential address, Section H, Anthropology
[11] 학술지 On the Theory of Correlation https://zenodo.org/r[...]
[12] 학술지 The Law of Ancestral Heredity https://zenodo.org/r[...]
[13] 학술지 The goodness of fit of regression formulae, and the distribution of regression coefficients
[14] 서적 Statistical Methods for Research Workers https://archive.org/[...] Oliver and Boyd
[15] 학술지 Fisher and Regression https://eprints.soto[...]
[16] 웹사이트 Regressions: Why Are Economists Obessessed with Them? http://www.imf.org/e[...] IMF 2011-12-03
[17] 서적 Geographically weighted regression: the analysis of spatially varying relationships John Wiley
[18] 학술지 The modifiable areal unit problem in multivariate statistical analysis 1991-01-01
[19] 서적 Principles and Procedures of Statistics with Special Reference to the Biological Sciences McGraw Hill
[20] 서적 Probability, Statistics and Estimation http://www.incertitu[...]
[21] 서적 Statistical methods of analysis https://books.google[...] World Scientific
[22] 서적 Common Errors in Statistics (And How to Avoid Them) Wiley
[23] 학술지 Least Squares Percentage Regression https://digitalcommo[...]
[24] 학술지 Human age estimation by metric learning for regression problems http://pages.cs.wisc[...]
[25] 서적 統計学入門 東京大学出版会
[26] 학술지 Galton, Pearson, and the Peas: A Brief History of Linear Regression for Statistics Instructors https://www.tandfonl[...] 2001-01-01



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com